Rank in Wordlist | Word | Rank in Wordlist | Word |
---|---|---|---|
1 | de | 26 | as |
2 | do | 27 | A |
3 | a | 28 | Série |
4 | e | 29 | B.O. |
5 | da | 30 | Direcção |
6 | o | 31 | ano |
7 | para | 32 | II |
8 | em | 33 | milhões |
9 | dos | 34 | Executivo |
10 | Macau | 35 | Chefe |
11 | que | 36 | mil |
12 | n.º | 37 | concurso |
13 | os | 38 | pelo |
14 | no | 39 | China |
15 | ao | 40 | mais |
16 | aos | 41 | foi |
17 | Serviços | 42 | sobre |
18 | com | 43 | Assuntos |
19 | na | 44 | é |
20 | um | 45 | Gabinete |
21 | por | 46 | Despacho |
22 | O | 47 | não |
23 | uma | 48 | Secretário |
24 | à | 49 | preenchimento |
25 | das | 50 | cento |
The table shows the top-50 words of the corpus. Usually we see stopwords.
Language: Afrikaans
This list is a good candidate for a first stopword list for a language.
Usually a small, balanced corpus is enough to get a good list of high frequent words. But if the small corpus has some very prominent topic, this will be visible even in the top word lists.
select w_id-100 as rank_in_wordlist, word from words where w_id>100 order by w_id limit 50;
3.4 Sample words for different frequency ranges